Aurelien Geron Aplicat Machine Learning cu Sdkit-Leam și TensorFlow Hands-On Machine Learning cu Scikit-Learn și TensorFlow Concepte, instrumente și tehnici pentru a construi sisteme inteligente Aurelien Geron Beijing Boston Farnham Sebastopol Tokyo O'REILLY® Applied Machine Learning cu Scikit-Learn și TensorFlow Concepte, instrumente și tehnici pentru construirea de sisteme inteligente Oreljen Geron Aidlekshika Moscova Sankt Petersburg Kiev BBK - Zh UDC Dialectika Computer Publishing Editor S N Trigub Traducere din engleză și editată de JO H Artemenko Pentru întrebări generale, vă rugăm să contactați editura Dialectika la: info@dialektika com, http://www dialektika com Jérôme, Aurelien J Învățare automată aplicată cu Scikit-Learn și TensorFlow: concepte, instrumente și tehnici pentru crearea de sisteme inteligente : Traducere din engleză - St Petersburg : Alfa-kniga LLC - cu : il - Parallel tit eng ISBN - - - - (eng ) LBC - Toate denumirile de produse software sunt mărci comerciale înregistrate ale companiilor respective Nicio parte a acestei publicații nu poate fi reprodusă în niciun scop, sub nicio formă sau prin orice mijloc, electronic sau mecanic, inclusiv fotocopiere și înregistrare pe suport magnetic, cu excepția cazului în care permisiunea scrisă este dată de O'Reilly & Associates Traducere autorizată în rusă a ediției în limba engleză a Hands-On Machine Learning cu Scikit-Learn și TensorFlow (ISBN - - - - ) © Aurelien Geron AII drepturile rezervate Această traducere este publicată și vândută cu permisiunea de O'Reilly Media, Inc , care deține sau controlează toate drepturile de a publica și vinde aceeași Toate drepturile rezervate Nicio parte a acestei lucrări nu poate fi reprodusă sau transmisă sub nicio formă sau prin orice mijloc, electronic sau mecanic, inclusiv fotocopiere, înregistrare, sau prin orice sistem de stocare sau recuperare a informațiilor, fără permisiunea prealabilă scrisă a Co proprietarul pyrright și editorul Publicație științifică populară Aurélien Gérôme Învățare automată aplicată cu Scikit-Learn și TensorFlow: Concepte, instrumente și tehnici pentru construirea de sisteme inteligente Layout T N Artemenko Art Editor V G Pavlyutin Semnat pentru tipărire Format x / Tipar Times Imprimare offset Conv Uch-izdl, Tirajul de copii Nr de comandă Alfa-kniga LLC, Sankt Petersburg, str Magnitogorskaya, d, lit A, pom ISBN - - - - (rus) traducere, formatare, aspect ISBN - - - - (eng) ) © Aurelien Geron Partea I Fundamentele învățării automate Capitolul Introducere în învățarea automată Capitolul complet al Proiectului de învățare automată Capitolul Clasificarea capitolului Capitolul Model Training Capitolul Suport Metode vectoriale Capitolul Arbori de decizie Capitolul Ansamblu Învățare și Păduri aleatorii Capitolul Dimensionalitatea Reducerea dimensiunii Partea II Rețele neuronale și Învățare profundă Capitolul Obținere A început cu TensorFlow Capitolul Introducere în rețelele neuronale artificiale Capitolul Despre Antrenamentul rețelelor neuronale profunde Capitolul Utilizarea TensorFlow pentru a distribui calcularea între dispozitive și servere Capitolul Rețele neuronale convoluționale Capitolul Rețele neuronale recurente Capitolul Autoencodere Capitolul Învățare consolidare Anexa A Soluții de exercițiu Anexa B Lista de verificare pentru un proiect de învățare automată Anexa C Problemă SVM duală Anexa D Diferențierea automată Anexa E Alte arhitecturi populare de rețele neuronale artificiale Index Despre autor Mulțumiri Prefață Învățare automată Tsunami Învățare automată în proiectele dvs Scop și abordare Condiții preliminare Foaia de parcurs Alte resurse Convenții tipografice utilizate în carte Utilizarea mostrelor de cod Feedback-ul este binevenit! Partea I Fundamentele învățării automate Capitolul Introducere în învățarea automată Ce este învățarea automată? Pentru ce se folosește învățarea automată? Tipuri de sisteme de învățare automată Învățare supravegheată și nesupravegheată Învățare în lot și dinamică Învățare bazată pe eșantion sau modele Principalele probleme ale învățării automate Dimensiunea insuficientă a datelor de antrenament Date de antrenament nereprezentative Date de slabă calitate Caracteristici neesențiale Supraadaptarea datelor de antrenament Subadaptarea datelor de antrenament Testul pas înapoi și validați Capitolul Exerciții https://neculaifantanaru com/en/qualities-of-a-leader-creativity html Proiectul complet de învățare automată Lucrul cu date reale Definirea imaginii de ansamblu Definirea problemei Selectarea unui criteriu de performanță Ipotezele de testare I Conținut Obținerea datelor Crearea unui spațiu de lucru Încărcarea datelor O privire rapidă asupra structurii datelor Crearea unui set de teste Descoperirea și vizualizarea datelor pentru a înțelege esența acestora Vizualizarea datelor geografice Găsirea conexiunilor Experimentarea cu combinații de atribute Pregătirea datelor pentru algoritmi de învățare automată Curățarea datelor Prelucrarea textului și a atributelor categoriale Transformatoare speciale Scalarea caracteristicilor Conducte de transformare Selecția și antrenamentul modelului Antrenament și punctare cu set de antrenament O estimare mai bună folosind validarea încrucișată Reglarea fină a modelului Lattice căutare Căutare aleatorie Metode de ansamblu Analiză cele mai bune modele și erorile acestora Evaluează sistemul cu un set de testare Rulați, monitorizați și întrețineți sistemul Încercați! Exerciții Capitolul Clasificare MNIST Clasificator binar Măsurarea corectitudinii performanței antrenamentului folosind validarea încrucișată Precizia matricei de încredere și raportul de precizie/rechemare a reamintirii Curba ROC Analiza erorilor de clasificare multiclasă Clasificare cu mai multe valori Exerciții de clasificare cu mai multe ieșiri Cuprins | Capitolul Modele de antrenament Regresie liniară Ecuație normală Complexitate computațională Gradient Coborâre Batch Gradient Coborâre Stochastic Gradient Coborâre Mini-lot Gradient Coborâre Regresie polinomială Curbe de învățare Modele liniare regulate Regresie de creastă Regresie lasso Rețea elastică Terminare timpurie Regresie logistică Estimare de probabilități Funcție de limite de învățare și costuri multivariabile Exerciții Suport capitol Mașini vectoriale Clasificare liniară SVM Clasificare Soft Gap Clasificare neliniară SVM Clasificare nucleu polinomial Proximitate Adăugare nucleu gaussian RBF Complexitate computațională S VM Regresie Bucătărie interioară Funcție de decizie și predicții Obiectiv de învățare Programare pătratică Problemă dublă redusă parametric Metode SVM Metode SVM capitole Exerciții dinamice Învățarea și vizualizarea arborilor de decizie Efectuarea de predicții Cuprins Estimarea probabilităților de clasă CART Algoritmul de învățare Complexitatea de calcul Gini Contaminare sau entropie? Regularizare Hiperparametri Regresie Instabilitate Exerciții Capitolul Ansamblu Învățare și Păduri aleatorii Votare Clasificatori Însăcire și inserție Bagare și Scikit-Learn Inserție Evaluare pe mostre neutilizate Metode aleatorii de diagramă și subspațiu aleatoriu Păduri aleatorii Arbore foarte aleatoriu Caracteristică Semnificație Îmbunătățirea semnificației AdaBoost Gradientul AdaBoost Dimensiune Exercițiu Diminuarea „Blestemul dimensionalității” Abordări de bază ale proiecției reducerii dimensionalității Învățare din varietățile PCA Păstrarea varianței Componentele principale Proiectarea dimensiunilor d Utilizând Scikit-Learn Coeficientul de variație explicată Alegerea numărului potrivit de dimensiuni Algoritmul PCA pentru compresie Analiza componentelor principale incrementale Analiza aleatorie a componentelor nucleului Analiza componentelor principale Selecția nucleului și reglarea hiperparametrului LLE Alte tehnici de reducere a dimensionalității Exerciții Cuprins Partea II Rețele neuronale și deep learning Capitolul II Pregătirea pentru lucrul cu TensorFlow Instalarea Crearea primului grafic și rularea acestuia într-o sesiune Gestionarea graficelor Ciclul de viață al valorii nodului Regresia liniară cu TensorFlow Implementarea coborârii gradientului Calculul manual al gradienților Utilizarea autodiffării Utilizarea unui optimizator Transferarea datelor unui algoritm de învățare Salvarea și restaurarea modelelor Vizualizarea unui grafic și curbe de învățare folosind spații de nume TensorBoard Exerciții de partajare a variabilelor de modularitate Capitolul Introducere în rețelele neuronale artificiale De la neuroni biologici la neuroni artificiali Neuroni biologici Calcul logic cu neuroni Perceptronul multistrat Perceptron și Antrenarea feedback-ului unui Perceptron multistrat cu TensorFlow API de nivel înalt Antrenarea unei rețele neuronale profunde Utilizând TensorFlow numai Construirea fazei de execuție a rețelei neuronale Reglarea fină a hiperparametrilor rețelei neuronale Numărul de straturi ascunse Numărul de neuroni pe strat ascuns Funcții de activare Exerciții Capitolul de antrenament Rețele neuronale profunde Probleme de dispariție și creștere a gradientului Inițializarea Xavier și Xe Funcții de activare nesaturabile Normalizare batch Decupare gradient | Cuprins Reutilizarea straturilor pre-antrenate Reutilizarea unui model TensorFlow Reutilizarea modelelor din alte cadre Înghețarea straturilor de nivel scăzut Memorarea în cache a straturilor înghețate Ajustarea, eliminarea sau schimbarea straturilor la nivel înalt Modele grădini zoologice Pre-antrenament nesupravegheat Pre-antrenament pe o problemă auxiliară Optimizare mai rapidă Optimizare instantanee Fast Nesterov Gradient AdaGrad RMSProp Adam Optimization Planificarea ratei de învățare Evitarea supraadaptării cu Terminarea regularizării Regularizarea timpurie și £ Dezactivare Shah Regularizare bazată pe norme Completarea datelor Cele mai bune practici Exerciții Capitolul Utilizarea TensorFlow pentru a distribui calcularea pe dispozitive și servere Instalați mai multe dispozitive GPU pe o singură mașină de gestionare a RAM Plasare Operații pe dispozitive Execuție paralelă Dependențe de control Multiple în dispozitive pe mai multe servere Deschiderea unei sesiuni Servicii Master și Executor Atașarea operațiunilor între sarcini Fragmentarea variabilelor pe servere cu mai mulți parametri Partajarea stării între sesiuni folosind containere de resurse Comunicare asincronă folosind cozi TensorFlow Încărcarea datelor direct dintr-un grafic Conținut Paralelizarea rețelelor neuronale într-un cluster TensorFlow Neural unic rețea per dispozitiv Model de replicare intra-grafică sau încrucișată a graficului Paralelism Date Exerciții de paralelism Capitolul Rețele neuronale convoluționale Structura cortexului vizual Filtre de strat convoluțional Suprapunerea hărților de caracteristici multiple Implementare cu TensorFlow Cerințe de memorie Strat unificat Arhitecturi de rețea neuronală convoluțională Exerciții LeNet-AlexNet Googs Capitolul Rețele neuronale recurente Neuroni recurenți Celulele de memorie Secvențe de intrare și ieșire Rețele neuronale recurente de bază în TensorFlow Static Sweep Secvență de timp Derulare dinamică Lungime variabilă Procesare secvență de intrare Lungime variabilă Secvență de ieșire Antrenament Rețea neuronală recurentă Secvență de antrenament Clasificator Antrenament pentru predicția serii cronologice Rețea neuronală recurentă creativă Rețele neuronale recurente profunde Distribuirea rețelei neuronale profunde recurente pe mai multe GPU-uri Aplicarea dezactivarii dificultății de învățare de-a lungul mai multor pași Celulă LSTM Vizualizați linkuri Celulă GRU | Cuprins Procesare în limbaj natural Reprezentări vectoriale ale cuvintelor Rețea de codificator-decodor pentru exerciții de traducere automată Capitolul Autoencodere Reprezentări eficiente de date Efectuarea analizei componentelor principale cu un autoencoder liniar descendent Autoencoder multistrat Implementare cu TensorFlow Linking Weights Training Un autoencoder la un timp Vizualizarea reconstrucțiilor Vizualizarea caracteristicilor Învățare nesupravegheată cu autoencodere stratificate Dezgomot Implementare autoencodere cu TensorFlow Implementare autoencodere rare cu TensorFlow Autoencodere variaționale Generarea cifrelor Alte exerciții pentru autoencodere Întărirea capitolului Învățare pentru optimizarea recompensei Căutare Politici Introducere în politicile OpenAI Gym sub formă de rețele neuronale Evaluare acțiuni: gradienți de coeficient de atribuire Probleme de încredere de politică procese de decizie Metode de învăţare diferența de timp casă și Q-learning Politici de cercetare Q-learning aproximativă și deep Q-learning Învățați să jucați jocul Ms Ras-Map folosind algoritmul de rețea DQN Exerciții Vă mulțumim! Anexa A Soluții de exercițiu Capitolul Introducere în învățarea automată Capitolul Complet Învățare automată Conținutul proiectului Clasificarea capitolului Capitolul Modele de antrenament Capitolul Suport Mașini vectoriale Capitolul Arbori de decizie Capitolul Ansamblu Învățare și Păduri aleatorii Capitolul Reducerea dimensiunii Capitolul Pregătirea pentru a lucra cu TensorFlow Capitolul Introducere în Rețelele neuronale artificiale Capitolul Antrenament Capitolul Rețele neuronale profunde Utilizarea TensorFlow pentru a distribui calculul pe dispozitive și servere Capitolul Rețele neuronale convoluționale Capitolul Rețele neuronale recurente Capitolul Autoencodere Capitolul Învățare consolidare Anexa B Lista de verificare a proiectului de învățare automată Stabiliți problema și aflați imaginea de ansamblu Achiziționați date Explorați datele Pregătiți datele Finalizați lista de modele promițătoare Ajustați sistemul Prezentați-vă soluția Lansați! Anexa C Problemă SVM dublă Anexa D Diferențierea automată Diferențierea manuală Diferențierea simbolică Diferențierea numerică Diferențierea automată în modul înainte Diferențierea automată în modul invers — Consultant în învățare automată Fost la Google, a condus echipa de clasificare a videoclipurilor YouTube de la an la an De la an la an, el a fost, de asemenea, fondatorul și șeful departamentului tehnic la Wifirst, un important furnizor de servicii de internet wireless din Franța, iar în a fondat și șeful de inginerie la Polyconseil, care acum conduce serviciul de partajare a mașinii electrice Autolib Aș dori să-mi mulțumesc colegii de la Goog le, în special echipa de clasificare a videoclipurilor YouTube, pentru că m-au învățat atât de multe despre învățarea automată Fără ei, nu aș fi început niciodată acest proiect Mulțumiri speciale guru-urilor mei personali în învățarea automată: Clement Courbet, Julien Dubois, Matthias Kende, Daniel Kitachevsky, James Pack, Alexander Pak, Anosh Raj, Vitor Sessak, Victor Tomczak, Ingrid von Glen, Rich Washington și toți cei de pe YouTube Paris Către Pete Warden pentru că au răspuns la toate întrebările mele TensorFlow, au revizuit Partea a II-a, au oferit multe idei interesante și, desigur, pentru că fac parte din echipa de bază TensorFlow, cu siguranță ar trebui să-i consultați blogul ! Multe mulțumiri lui Lukas Biewald pentru revizuirea sa foarte serioasă a părții a II-a: a dat peste cap, a verificat tot codul (și a găsit câteva erori), a oferit o mulțime de sfaturi grozave, iar entuziasmul lui a fost molipsitor Trebuie doar să vizitează-i blogul și aruncă o privire la roboții lui cool ! Îi mulțumim lui Justin Francis pentru analiza foarte amănunțită a Părții a II-a, a prins bug-uri și a furnizat idei grozave, în special la capitolul Păstrați evidența postărilor sale TensorFlow ! Mulțumiri uriașe lui David Andjievski care a revizuit Partea I și a oferit feedback incredibil de util, subliniind secțiunile pe care nu le-am înțeles și sugerând modalități de a le îmbunătăți Consultați site-ul său ! Mulțumiri lui Grégoire Menil care a revizuit partea a II-a și a oferit un sfat practic foarte interesant despre formarea rețelelor neuronale De asemenea, mulțumim lui Eddy Hong, Salim Semaun, Karim Matra, Ingrid von Glen, Ian Smez și Vincent Guilbaud pentru revizuirea părții I și a multor sfaturi utile Și eu îi mulțumesc socrului meu Michel Tessier, un fost profesor de matematică și acum un excelent traducător al lucrărilor lui Anton Cehov, pentru că m-a ajutat la rezolvarea unora dintre matematica din carte și pentru că a analizat caietul de algebră liniară Jupyter Desigur, un mare mulțumire lui dragul meu frate Sylvain, care a revăzut fiecare capitol, a verificat fiecare linie de cod, a oferit feedback despre fiecare secțiune și m-a susținut de la prima până la ultima linie Te iubesc, frate! Mulțumim personalului fantastic de la O'Reilly, în special Nicole Tash, care a oferit feedback perspicace, mereu optimist, încurajator și amabil Mulțumim și lui Marie Bouguro, Ben Laurica, Mike Loukides și Laurel Ruuma pentru că au crezut în proiect și au ajutat Eu îi definesc domeniul de aplicare Mulțumesc lui Meta Hacker și tuturor celor din echipa Atlas pentru că mi-au răspuns întrebărilor tehnice despre formatare, AsciiDoc și LaTeX, și lui Rachel Monaghan, Nick Adams și tuturor din echipa de producție pentru revizuirea finală și sute de corecții Ultimul dar nu în ultimul rând, sunt vesnic recunoscător iubitei mele soții Emmanuelle și celor trei copii minunați, Alexandre, Remy și Gabrielle, pentru că m-au susținut în munca intensivă la această carte, punând multe întrebări (care a spus că nu veți putea preda rețelele neuronale) unui copil de șapte ani?) și chiar aducându-mi biscuiți și cafea Ce ai mai putea cere? | Mulțumiri Cuvânt înainte În , Geoffrey Hinton și colaboratorii au publicat o lucrare care arată cum să antrenezi o rețea neuronală profundă capabilă să recunoască cifrele scrise de mână cu o acuratețe avansată (> ) Ei au numit această tehnică „Învățare profundă” din anii , majoritatea cercetătorilor au abandonat această idee Articolul specificat a trezit interesul comunității științifice și în curând numeroase articole noi au demonstrat că învățarea profundă nu era doar posibilă, ci și capabilă de realizări uimitoare Nici o altă tehnică de învățare automată (Machine Learning) - ML) nici măcar nu s-a putut apropia de astfel de realizări (cu ajutorul unei puteri de calcul gigantice și a unor cantități uriașe de date) Acest entuziasm s-a răspândit rapid în multe alte domenii ale învățării automate Anii au trecut și învățarea automată a cucerit industria: acum stă la baza multor magia high-tech-ului de astăzi a căutărilor dvs , stimulând recunoașterea vocală a smartphone-ului dvs și recomandând videoclipuri În plus, îl învinge pe campionul mondial în jocul Go Înainte să vă dați seama, învățarea automată va începe să vă conduceți mașina Articol disponibil pe pagina de pornire a lui Hinton, situată la adresa În ciuda faptului că rețelele neuronale convoluționale profunde ale lui Jan LeCun au funcționat bine în recunoașterea imaginilor de ani de zile, nu erau atât de versatile Cuvânt înainte | Așadar, desigur, ești fascinat de învățarea automată și ai dori să te alăture companiei! Poate vrei să-i oferi robotului tău de acasă un creier al său? Îl faci să recunoască fețele? Să-l înveți să meargă? Sau poate că compania dvs are o mulțime de date (jurnalele utilizatorilor, date financiare, date de producție, date despre senzorii mașinii, statistici de la linia de asistență, rapoarte de personal etc ) și, cel mai probabil, ați putea găsi câteva nestemate ascunse acolo uite Următoarele sunt exemple de ceea ce s-ar putea face: segmentează clienții și stabilește cea mai bună strategie de marketing pentru fiecare grup; recomanda produse fiecărui client în funcție de ceea ce cumpără clienți similari; a determina ce tranzacții sunt posibil frauduloase; prezice veniturile de anul viitor; mult mai mult Indiferent de motiv, ați decis să stăpâniți învățarea automată și să o implementați în proiectele dvs O idee grozavă! Această carte presupune că nu știți aproape nimic despre învățarea automată Scopul ei este să vă ofere conceptele, ideile și instrumentele de care aveți nevoie pentru a implementa efectiv programe care pot Vom acoperi numeroase tehnici, începând cu cele mai simple și mai frecvent utilizate ( cum ar fi regresia liniară) și se încheie cu o serie de metode de învățare profundă care câștigă în mod regulat competiții În loc să implementăm propria noastră versiune în miniatură a fiecărui algoritm, vom folosi cadre Python reale de producție | Prefață Biblioteca Scikit-Learn este foarte ușor de utilizat, dar implementează în mod eficient mulți algoritmi de învățare automată, ceea ce o face un punct de plecare excelent pentru a învăța despre învățarea automată TensorFlow este o bibliotecă mai sofisticată pentru calcule numerice distribuite folosind grafice ale fluxului de date permite antrenarea și rularea eficientă a rețelelor neuronale foarte mari, potențial răspândind calculul pe mii de servere cu multe GPU TensorFlow a fost creat de Google și acceptă multe aplicații de învățare automată la scară largă În noiembrie a acestui an, a devenit open source Cartea favorizează un abordare practică, stimulând o înțelegere intuitivă a învățării automate prin exemple concrete de lucru, așa că există foarte puțină teorie aici Citiți Jupyter la Această carte presupune că aveți ceva experiență de programare Python și sunteți familiarizat cu principalele biblioteci Python pentru calculul științific, în special NumPy , Pandas și Matplotlib De asemenea, dacă sunteți interesat de ceea ce se întâmplă în interior , atunci ar trebui să înțelegeți și matematica la nivel de facultate (calcul, algebră liniară, probabilitate și statistici) Dacă nu cunoașteți deja Python, site-ul web este un loc minunat pentru a începe să-l învățați De asemenea, tutorialul oficial la python org Dacă nu ați lucrat niciodată cu Jupyter, acest capitol vă va ghida prin instalarea acestuia și elementele de bază: este un instrument grozav de avut în arsenalul dvs Prefață | Dacă nu sunteți familiarizat cu bibliotecile Python pentru calculul științific, caietele Jupyter furnizate includ câteva tutoriale adecvate Este disponibil și un ghid rapid de matematică pentru algebra liniară Cartea conține două părți Sunt abordate următoarele subiecte Ce este învățarea automată? Ce probleme încearcă să rezolve? Care sunt principalele categorii și conceptele fundamentale ale sistemelor de învățare automată? Principalii pași într-un proiect tipic de învățare automată Învățare prin adaptarea unui model la date Optimizarea funcției de cost Procesarea, curățarea și pregătirea datelor Selectarea caracteristicilor și variația construcției) Reducerea la scară a datelor de antrenament pentru a combate „blestemul dimensionalității” Cei mai comuni algoritmi de învățare sunt: regresie liniară și polinomială, regresie logistică, vecini cei mai apropiați, mașini vector suport, arbori de decizie, păduri aleatorii și metode de ansamblu Sunt abordate următoarele subiecte Ce sunt rețelele neuronale? La ce sunt bune? Construirea și antrenamentul rețelelor neuronale cu TensorFlow Cele mai importante arhitecturi de rețele neuronale: rețele neuronale feedforward, rețele convoluționale, rețele recurente, rețele de memorie pe termen lung (LSTM) și autoencodere I Prefață Tehnici de antrenament pentru rețele neuronale profunde Scalarea rețelelor neuronale pentru seturi de date gigantice Antrenament cu consolidare Prima parte se bazează în principal pe utilizarea Scikit-Learn, în timp ce a doua parte se bazează pe utilizarea TensorFlow trebuie mai întâi să stăpânească elementele de bază De asemenea, majoritatea problemelor pot fi rezolvate destul de bine folosind trucuri simple, cum ar fi pădurile aleatorii și metodele de ansamblu ( discutat în partea I) Învățarea profundă este cea mai potrivită pentru rezolvarea problemelor complexe precum recunoașterea imaginilor, recunoașterea vorbirii sau procesarea naturii limbaj, cu condiția să aveți suficiente date, putere de procesare și răbdare Multe resurse sunt disponibile pentru a stăpâni învățarea automată timp (probabil câteva luni) În plus, există multe site-uri web interesante despre învățarea automată, inclusiv, desigur, site-ul Scikit-Learn cu un manual de utilizare remarcabil S-ar putea să vă placă și site-ul web Dataquest care oferă tutoriale interactive foarte utile , și bloguri de învățare automată precum cele enumerate pe site-ul web Quora În cele din urmă, site-ul web de învățare profundă are o listă bună de resurse pentru studii ulterioare Prefață | Desigur, sunt disponibile multe alte cărți introductive de învățare automată, inclusiv cele enumerate mai jos de Joel Grus, (O'Reilly) Această carte prezintă elementele de bază ale învățării automate și implementarea unui număr de algoritmi de bază cu doar cod Python (din scratch) Stephen Marsland, (Chapman și Hali) Această carte este o introducere excelentă în învățarea automată Acoperă o gamă largă de subiecte în detaliu și oferă exemple de cod în Python (tot de la zero, dar folosind NumPy) Sebastian Raschka, (Packt Publishing) De asemenea, o introducere excelentă în învățarea automată, folosind bibliotecile open source Python (Pylearn și Theano) Yasser S Abu-Mustafa, Malik Magdon-Ismail și Xuan-Tien Lin, (AMLBook) Cu o abordare teoretică destul de cuprinzătoare a învățării automate, acest Cartea oferă o înțelegere profundă a multor aspecte, în special despre compromisul dintre părtinire și varianță (Capitolul) Stuart Russell și Peter Norvig, (Pearson) (- ed , Dialectics) O carte excelentă (și mare) care acoperă o gamă incredibilă de subiecte, inclusiv învățarea automată Ajută la surprinderea imaginii de ansamblu a învățării automate În cele din urmă, o modalitate excelentă de a învăța este să vă alăturați site-urilor web de competiții de învățare automată precum Kaggle com Acest lucru vă oferă posibilitatea de a vă aplica abilitățile la problemele din lumea reală cu ajutorul unui număr de profesioniști eminenți în învățarea automată Următoarele convenții tipografice se aplică acestei cărți I Prefață Folosit pentru termeni noi Utilizat pentru adrese URL, adrese de e-mail, nume de fișiere și liste de programe și, în paragrafe, pentru a se referi la elemente de program, cum ar fi numele de variabile și funcții, baze de date, tipuri de date, variabile de mediu și cuvinte cheie Folosit pentru a reprezenta comenzi sau alt text care trebuie introdus literal de către utilizator valori, oferind Acest element conține un indiciu sau un indiciu Acest element conține o notă generală Acest element conține un avertisment sau o atenție Material suplimentar (eșantioane de cod, exerciții etc ) este disponibil pentru descărcare la De obicei, dacă o carte furnizează cod exemplu, îl puteți utiliza în propriile programe și documentație Nu trebuie să ne cereți permisiunea, decât dacă utilizați o cantitate semnificativă din cod Spuneți, Prefață | scrierea unui program care folosește mai multe fragmente de cod din această carte nu necesită permisiune Este necesară permisiunea Pentru a vinde sau a distribui un CD cu exemple din cărțile O'Reilly Răspundeți la o întrebare citând această carte și conectarea la exemplu de cod nu este necesară permisiunea Pentru a încorpora un semnificativ Pentru domeniul de aplicare al exemplelor de cod discutate în această carte, este necesară permisiunea în documentația produsului dvs Apreciem atribuirea, deși nu o solicităm Atribuirea include de obicei titlul cărții, numele și prenumele autorului, editorul și numărul ISBN De exemplu: de Aurelien Geron (O Reilly) Copyright Aurelien Geron, - - - - ” Dacă considerați că modul în care utilizați exemplele de cod este în afara cadrului legal sau a permisiunilor menționate mai sus, atunci contactați-ne la următoarele adresa de e-mail: Tu, cititorul acestei cărți, ești principalul critic al ei Apreciem opinia ta și dorim să știm ce am făcut bine, ce s-ar fi putut face l mai bine și ce altceva ați dori să vedeți publicat de noi Suntem interesați de oricare dintre comentariile dvs la noi Așteptăm comentariile dvs și le așteptăm cu nerăbdare Ne puteți trimite o lucrare sau un e-mail sau pur și simplu vizitați site-ul nostru și plecați comentariile dvs acolo Într-un cuvânt, orice Anunțați-ne într-un mod convenabil pentru dvs dacă vă place această carte și, de asemenea, exprimați-vă părerea despre cum să facem cărțile noastre mai interesante pentru dvs Când trimiteți o scrisoare sau un mesaj, nu uitați să indicați titlul cărții și autorii acesteia, precum și adresa dvs de retur Vom citi cu atenție părerea dvs și ne vom asigura că o ținem cont atunci când alegem și pregătim pentru publicarea de noi cărți Adresele noastre de e-mail: E-mail: WWW : Adresele noastre poștale: în Rusia: , St , PO Prefață PARTEA I Fundamentele învățării automate CAPITOLUL Introducere în învățarea automată sau necruțătorul Terminator, în funcție de cine întrebi Dar învățarea automată nu este doar o fantezie futuristă, este deja aici De fapt, există de zeci de ani într-o serie de aplicații specializate, precum programele pentru Dar prima aplicație a ML care a primit cu adevărat o distribuție pe scară largă, după ce a îmbunătățit viața a sute de milioane de oameni, a văzut lumina încă din anii : a fost Nu pretinde că este omniprezentul Skynet, dar se califică oficial ca o aplicație cu ML (de fapt, filtrul învață atât de bine încât rareori trebuie să marcați un mesaj ca spam) A fost urmat de sute de Aplicații ML care alimentează acum sute de produse și instrumente pe care le utilizați în mod regulat, de la recomandări de top până la căutare vocală Unde începe și unde se termină învățarea automată? Ce înseamnă exact ceva pentru o mașină? Dacă am descărcat o copie a Wikipedia, computerul meu chiar a „învățat” ceva? A devenit brusc mai inteligent? În acest capitol, veți începe să vă clarificați singur ce este învățarea automată și de ce ați putea dori să o aplicați Apoi, înainte de a începe explorarea continentului MO, vom arunca o privire pe hartă pentru a afla despre principalele regiuni și cele mai notabile repere: învățarea supravegheată și învățarea nesupravegheată, dinamică și în loturi, învățarea bazată pe mostre și pe modele În continuare, vom parcurge fluxul de lucru al unui proiect ML tipic, vom discuta principalele probleme pe care le puteți întâlni și vom arăta cum să evaluați și depanați un sistem ML Acest capitol prezintă o mulțime de concepte fundamentale (și jargon) pe care fiecare cercetător de date ar trebui să le cunoască pe de rost Aceasta va fi o prezentare generală la nivel înalt (singurul capitol care nu este plin de cod); materialul este destul de simplu, dar înainte de a trece la citirea celorlalte capitole ale cărții, ar trebui să te asiguri că totul aici este complet clar pentru tine Așa că, aprovizionați-vă cu cafea și să mergem! Dacă cunoașteți deja toate elementele de bază ale învățării automate, atunci puteți sări direct la capitol Dacă nu sunteți atât de sigur, atunci înainte de a continua, încercați să răspundeți la întrebările de la sfârșitul capitolului Învățarea automată este știința (și arta) a programarii computerelor pentru a putea Iată o definiție mai generală [Învățarea automată este] o disciplină științifică care oferă computerelor capacitatea de a învăța fără a fi programate în mod explicit Arthur Samuel, Anul A problemă și o estimare a performanței dacă performanța sa pe , ca măsurată prin , se îmbunătățește odată cu experiența Tom Mitchell, an Să presupunem că filtrul tău de spam este un program MO care poate învăța să semnalizeze spam-ul, având în vedere exemple de mesaje spam (poate etichetate de utilizatori) și exemple de mesaje de e-mail normale (nu spam) Numerele pe care sistemul le folosește pentru antrenament sunt numite Fiecare exemplu de antrenament este numit În situația luată în considerare, sarcina este un semn de spam pentru mesaje noi, experiența este , iar scorul de performanță trebuie determinat; de exemplu, puteți aplica raportul dintre mesajele e-mail bine clasificate Acest scor special de performanță se numește și este adesea folosit în sarcinile de clasificare Dacă descărcați doar o copie a Wikipedia, computerul dvs va conține mult mai multe date, dar nu va deveni brusc mai bun la o anumită sarcină Deci, aceasta nu este învățare automată Luați în considerare cum ați scrie un filtru de spam folosind trucuri Te-ai uita mai întâi la cum arată de obicei spamul S-ar putea să observi că există o mulțime de anumite cuvinte sau expresii în linia de subiect al mesajului S-ar putea să observi și alte câteva modele în numele expeditorului, corpul mesajului, etc Vei scrie un algoritm de detectare pentru fiecare model care a fost observat, iar programul ar marca mesajele ca spam dacă s-ar găsi un număr de astfel de modele Ai testa programul și ai repeta pașii și până când va fi suficient de bun Deoarece sarcina nu este banală, programul dvs este probabil să aibă o listă lungă de complexe regulile x, care este destul de dificil de menținut Capitolul Introducere în învățarea automată Spre deosebire de această abordare, filtrul de spam bazat pe ML învață automat care cuvinte și expresii sunt buni predictori de spam prin detectarea tiparelor de cuvinte neobișnuit de frecvente în mostrele de mesaje spam în comparație cu exemplele de spam mesaje normale (fig ) Programul se dovedește a fi mult mai scurt, mai ușor de întreținut și, cel mai probabil, mai precis În plus, dacă spammerii constată că toate mesajele lor care conțin, de exemplu, „U” sunt blocate, atunci pot în schimb scrie „Pentru U” Un filtru de spam construit folosind trucuri tradiționale de programare va trebui actualizat pentru a marca mesajele cu „For U” Dacă spammerii continuă să ocolească filtrul de spam, va trebui să scrieți constant reguli noi Dimpotrivă, un filtru de spam pe baza trucurilor MO va observa automat că expresia „Pentru U” a devenit neobișnuit de comună în mesaje, marcați etichetat ca spam de către utilizatori și va începe să le eticheteze fără intervenția dvs (fig ) recunoașterea vorbirii: să presupunem că doriți să începeți simplu și să scrieți un program care să poată distinge între cuvintele „unu” și „două” Puteți observa că cuvântul „două” ” începe cu un sunet înalt (“D”) și, prin urmare, codifică algoritmul, care măsoară intensitatea unui sunet înalt și îl folosește pentru a face distincția între cuvintele menționate Partea I Fundamentele învățării automate nu scala la mii de cuvinte rostite de milioane de oameni foarte diferiți în medii zgomotoase și în zeci de limbi O soluție mai bună (oricum, astăzi) presupune scrierea unui algoritm care învață de la sine, având multe înregistrări sonore cu cca pronunția fiecărui cuvânt În cele din urmă, învățarea automată poate ajuta oamenii să învețe (Fig algoritmii ML pot fi inspectați pentru a vedea ce au învățat (deși acest lucru poate să nu fie ușor pentru unii algoritmi) De exemplu, după ce un filtru de spam a fost antrenat pe un cantitate suficientă de mesaje spam, este ușor să o examinezi pentru o listă de cuvinte și expresii pe care le consideră cei mai buni predictori de spam Uneori, va fi posibil să găsim relații neașteptate sau noi tendințe, ceea ce duce la o mai bună înțelegere a sarcinii Aplicarea Tehnicile ML pentru a explora cantități mari de date pot ajuta la detectarea tiparelor, care nu au fost observate imediat Aceasta se numește sau În concluzie, Învățarea automată este excelentă pentru: Probleme în care soluțiile existente necesită o mulțime de modificări manuale sau liste lungi de reguli — un singur algoritm ML este adesea capabil să simplifice codul și să funcționeze mai bine probleme complexe pentru care abordarea tradițională nu oferă deloc soluții bune – cele mai bune tehnici ML pot găsi o soluție; medii în schimbare - sistemul ML este capabil să se adapteze la date noi; aflați despre probleme complexe și cantități mari de date Capitolul Introducere în învățarea automată | Există atât de multe tipuri diferite de sisteme de învățare automată încât este convenabil să le grupăm în categorii largi, în funcție de faptul dacă învață cu supraveghere umană (învățare supravegheată, învățare nesupravegheată, învățare semisupravegheată și învățare prin întărire)); dacă pot învăța treptat din mers (învățare dinamică sau în lot); indiferent dacă funcționează prin simpla comparare a punctelor de date noi cu puncte de date cunoscute sau, în schimb, găsesc modele în datele de antrenament și construiesc un model predictiv similar cu ceea ce fac oamenii de știință (învățare bazată pe mostre sau pe modele) Criteriile enumerate nu se exclud reciproc; le puteți combina oricum doriți De exemplu, un filtru de spam modern este capabil să învețe din mers folosind un model de rețea neuronală profundă care este antrenat pe exemple de mesaje spam și mesaje normale; acest lucru îl face un sistem de învățare supervizată dinamic, bazat pe model Să aruncăm o privire mai atentă la fiecare dintre criteriile de mai sus , după cum se arată în figura O sarcină tipică de învățare supravegheată este Filtrul de spam este un bun exemplu de clasificare: învață din multe exemple mesaje cu acestea (spam sau non-spam) și, prin urmare, trebuie să știe cum să clasifice mesajele noi sarcina este de a prezice o valoare numerică, cum ar fi prețul unei mașini, dat un set de sau (kilometraj, vârstă, marcă etc ) numit O sarcină de acest fel se numește (Fig ) Pentru a antrena sistemul, trebuie să-i oferiți o mulțime de exemple de mașini, inclusiv predictorii și etichetele acestora (adică prețurile) tind să fie mai scunzi părinții lui Deoarece copiii erau mai scunzi, el a numit acest fapt Acest nume a fost apoi aplicat metodelor pe care le-a folosit pentru a analiza relațiile dintre variabile Capitolul Introducere în învățarea automată | Valoare În învățarea automată, este un tip de date (de exemplu, „Kilometraj”), în timp ce, în funcție de context, are mai multe semnificații, dar în cele mai multe cazuri înseamnă un atribut plus valoarea acestuia (să zicem, „Kilometraj = ”) mulți oameni folosesc cuvinte și interschimbabil Rețineți că unii algoritmi de regresie pot fi utilizați și pentru clasificare și invers De exemplu, (regresia) este de obicei folosită pentru clasificare, deoarece este capabil să producă o valoare care corespunde probabilității de apartenență la un anumit clasă (să zicem, spam cu o probabilitate de ) Mai jos unii dintre cei mai importanți algoritmi de învățare supravegheată (acoperiți în această carte) sunt enumerați: k-nearest neighbors regresie liniară regresie logistică suport vector machine (SVM) arbori de decizie (arborele de decizie) și păduri aleatorii (pădure aleatoare) rețele neuronale (rețea neuronală) Unele arhitecturi de rețele neuronale pot fi nesupravegheate, cum ar fi codificatoarele automate și mașinile Boltzmann restricționate Ele pot fi, de asemenea, parțiale, ca în rețelele de credință profundă și în preînvățarea nesupravegheată neetichetat (Fig ) Sistemul încearcă să învețe nesupravegheat Următoarea este o listă cu cei mai importanți algoritmi de învățare nesupravegheată (vom analiza reducerea dimensionalității în capitolul Clustering despre k-medii (k-medii o Analiza ierarhică a clusterelor (HCA) o Maximizarea așteptărilor Vizualizarea și reducerea dimensionalității o Analiza componentelor principale (PCA) o Kernel PCA o Încorporare liniară locală (Locally-Linear Embedding - LLE) despre imbricarea stocastică a vecinilor cu o distribuție t (T-distributed Stochastic Neighbor Embedding - t-SNE) Învățarea regulilor de asociere o Apriori o Capitolul Eclat Introducere în învățarea automată De exemplu, să presupunem că aveți multe date despre vizitatorii blogului dvs Puteți rula un algoritm de grupare pentru a încerca să identificați grupuri de vizitatori similari (fig ) Algoritmul nu trebuie să spună din ce grup aparține vizitatorul: va găsi astfel de conexiuni fără ajutorul dvs Să presupunem că algoritmul ar putea observa că dintre vizitatori sunt bărbați care iubesc benzile desenate și vă citesc blogul seara, - tineri iubitori de SF care vizitează blogul în weekend, etc Dacă utilizați algoritmul, atunci acesta poate, de asemenea, să subdivizeze fiecare grup în grupuri mai mici Acest lucru poate ajuta la direcționarea intrărilor de blog către fiecare grup învățare: le oferiți o mulțime de date complexe și neetichetate și scot un D sau o reprezentare D a datelor care este ușor de desenat (fig ) Acești algoritmi încearcă să păstreze cât mai multă structură (de exemplu, încearcă să evite suprapunerea atunci când redați grupuri individuale în spațiul de intrare), astfel încât să puteți înțelege cum datele sunt organizate și posibil să identifice modele neașteptate O problemă conexă este , al cărei scop este simplificarea datelor fără a pierde prea multe informații O metodă implică îmbinarea mai multor caracteristici asociate într-una singură rata de uzură a mașinii Aceasta se numește (f ) I Part I Fundamentele învățării automate pisică (pisică) automobile (mașină) camion (camion) broască (broască) navă (navă) avion (avion) ​​cal (cal) o pasăre (pasăre) câine (câine) căprioară (cerbul) Celula actuală se recuperează la nucleul Python al acestui notebook, care se va executa it and return output Rezultatul este afișat sub celulă și, din moment ce am ajuns la sfârșitul blocnotesului, o nouă celulă este creată automat Pentru a afla elementele de bază, selectați User Interface Tour din meniul Ajutor al Jupyter jupyter Housing Deconectare fișier Editare Vizualizare instrument Insert Cell Kernel Help | Python O în + & ® F F H C Cod C E CelToolbar În : prinț("Hello world!" Hello world! În ( ]î În mediile tipice, datele dvs vor fi disponibile într-o bază de date relațională (sau într-un alt depozit de date partajat) și răspândite în multe tabele/documente/fișiere vezi și schema de date Cu toate acestea, în acest proiect, situația este mult mai simplu: veți încărca doar un singur fișier comprimat, în interiorul căruia conține un fișier cu valori separate prin virgulă (CSV) după nume, cu toate datele De asemenea, poate fi necesar să verificați restricțiile legale, cum ar fi câmpurile personale care nu ar trebui niciodată copiate în date nesigure stochează Capitolul Complete Machine Learning Project | Puteți descărca fișierul printr-un browser web și puteți rula comanda pentru a decomprima fișierul CSV, dar este de preferat să creați o funcție care să facă acest lucru Această tehnică este utilă mai ales dacă datele se schimbă în mod regulat, deoarece aceasta vă permite să scrieți un mic script și să-l rulați ori de câte ori aveți nevoie pentru a prelua cele mai recente date (sau puteți configura o sarcină programată pentru a face automat această lucrare la intervale regulate) Automatizarea procesului de extragere a datelor este, de asemenea, utilă atunci când setul de date trebuie să fi instalat pe mai multe mașini Următoarea funcție este afișată pentru a prelua datele etch hc not ( + ) : Acum, apelul are ca rezultat crearea unui director în spațiul de lucru, încărcarea fișierului, extragerea fișierului din acesta și plasarea acestuia în directorul specificat Să încărcăm datele folosind Pandas Trebuie din nou să scrieți o funcție mică pentru a încărca datele: ( ( Această funcție returnează un obiect Pandas care conține toate datele Într-un proiect real, ați stoca acest cod într-un fișier Python , dar deocamdată, puteți să-l introduceți doar în caietele dvs Jupyter I Partea I Noțiuni de bază ale învățării automate Să aruncăm o privire rapidă la primele cinci rânduri, folosind metoda obiectului „(fig ) În : carcasă » încărcare h using data() locuință head longitudine latitudine locuință vârsta mediană total camere total, dormitoare populație - - - - - Fiecare rând reprezintă un județ Există atribute (primele vizibile în captură de ecran): , , , și Metoda este utilă pentru obținerea unei scurte descriere a datelor, în special a numărului total de rânduri, precum și a tipului și a numărului de valori non-nule ale fiecărui atribut (fig ) Setul de date are mostre și, prin urmare, este destul de mic conform standardelor de învățare automată, dar ideal pentru pornire În î informații despre locuințe Rangelndex : intrări, către Coloana de date (coloana totală): longitudine latitudine latitudine nenulă float locuință vârstă medie non-null float total camere non-null float total dormitoare non-null float populație non-null float gospodării non-null float venit median non-null float mediană valoare casei non-null float proximitate ocean obiect non-null dtypes: float obiect utilizarea memoriei: + MB Capitolul Complete Machine Learning Project | Rețineți că atributul are doar valori non-nule, adică județele nu au atributul menționat Mai târziu va trebui să ne ocupăm de acest lucru Toate atributele sunt numerice cu excepția câmpului It este de tip , deci poate conține orice fel de obiect Python, dar din moment ce ați încărcat datele dintr-un fișier CSV, atunci știți că câmpul ar trebui să fie un atribut text Privind primele cinci rânduri, veți observa cu siguranță că valorile din coloană sunt repetate, adică este probabil un atribut categorial Folosind metoda, puteți afla ce categorii există și câte județe aparțin fiecărei categorii: hou va ue soi -: () t;= ) Până acum, am luat în considerare eșantionarea pur aleatorie metode În general, sunt bune dacă setul de date este suficient de mare (mai ales în ceea ce privește numărul de atribute), dar când nu este, există riscul introducerii unei părtiniri semnificative de eșantionare Dacă oamenii dintr-o companie de cercetare decid să sune oamenii pentru a întreba lor întrebări, ei nu selectează doar aleatoriu persoane dintr-un agendă telefonică Încearcă să se asigure că acest grup de persoane este reprezentativ pentru întregul raport al populației din eșantion: femei și bărbați Aceasta se numește : populația este împărțită în subgrupe omogene, numite , și se prelevează numărul corect de eșantioane din fiecare strat pentru a se asigura că setul de test este reprezentativ pentru întreaga populație Folosind un eșantion pur aleatoriu, ar exista aproximativ un șansă de obținerea unui set de testare distorsionat care să conțină mai puțin de de femei sau mai mult de de femei În ambele situații, rezultatele studiului ar fi semnificativ părtinitoare Ați discutat cu experți care v-au spus că venitul mediu este un atribut foarte important pentru predicție set de date Deoarece venitul mediu este un atribut numeric continuu, Partea I Fundamentele învățării automate, mai întâi trebuie să creați un atribut de categorie de venit Să ne uităm la histograma pentru venitul mediu mai îndeaproape (vezi Figura majoritatea valorilor de cupru din acest venit sunt grupate în jurul $ -$ , dar unele venituri medii sunt mult peste $ În setul de date, este important să existe suficiente eșantioane pentru fiecare strat, altfel estimarea importanței stratului poate fi părtinitoare Cu alte cuvinte , nu ar trebui să aveți prea multe straturi, dar fiecare strat trebuie să fie suficient de mare Codul de mai jos creează un atribut de categorie de venit prin împărțirea venitului median la (pentru a limita numărul de categorii de venit), rotunjind rezultatul folosind cei; (pentru a obține categorii discrete) și apoi combinând toate categoriile mai mult într-o categorie: housing = np ce (housing / ) hous ng aici (hous ng = > = ) este greu de văzut orice model special Setarea parametrului la face mult mai ușor să găsiți locuri în care există o densitate mare de puncte de date (Fig mai bine: puteți vedea clar zonele cu densitate mare, și anume zona Golfului San Francisco și lângă Los Angeles și San Diego plus un șir lung de densitate destul de mare în Valea Californiei, în special lângă Sacramento și Fresno Chapter Complete Machine Learning Project | În general, creierul nostru este foarte bun la reperarea tiparelor în imagini, dar poate fi necesar să experimentăm opțiuni de vizualizare pentru a face modelele mai vizibile hartă de culori predefinită (parametru) numită , care variază de la albastru (prețuri mici) la roșu (prețuri mari): = ( =plt =Adevărat Imaginea arată că prețurile caselor sunt foarte dependente de locație (de exemplu, aproape de ocean) și densitatea populației, pe care probabil o cunoașteți deja Ar putea fi util să utilizați un fel de algoritm de grupare pentru a identifica clusterele principale și să adăugați atribute noi care măsoară apropierea de centrele clusterului Atributul proximității față de ocean poate fi, de asemenea, practic, deși în nordul Californiei, prețurile caselor în județele de coastă nu sunt prea înalte, așa că aceasta nu este o regulă simplă Dacă vizualizați această imagine în tonuri de gri, atunci luați un creion roșu și marcați cea mai mare parte a coastei de la zona golfului până la San Diego (pe care ați putea așteptați) Puteți adăuga, de asemenea, un mic petic galben lângă Sacramento Chapter Complete machine learning project | Deoarece setul de date nu este prea mare, puteți calcula cu ușurință (coeficientul de corelație standard), numit și (Pearsons ), între fiecare pereche de atribute folosind metoda: - i co o Acum să vedem cum este legat fiecare atribut de medie = Fals) valoarea casei: valoarea mediană a casei venitul mediu total camere locuințe vârsta medie a gospodăriilor dormitoare populație - longitudine - latitudine - Nume: valoarea mediană a casei, dtype: float Coeficientul de corelație variază de la - la Când este aproape de , înseamnă că există o corelație pozitivă puternică; de exemplu, costul mediu al unei case tinde să crească odată cu venitul median Când coeficientul de corelație este aproape de - , atunci există o corelație negativă puternică; puteți vedea o ușoară corelație negativă între latitudine și valoarea medie a locuinței (adică prețurile tind să scadă ușor pe măsură ce vă deplasați spre nord) și axele verticale Coeficientul de corelație măsoară doar corelația liniară („dacă crește, atunci de obicei crește/scădea”) Poate trece complet cu vederea relații neliniare (de exemplu, „dacă este aproape de zero, atunci de obicei în creștere”) Rețineți că toate diagramele din rândul de jos au un coeficient de corelație de zero, în ciuda faptului evident că axele lor nu sunt independente: ele reprezintă exemple de non- relații liniare după cum poți vedea, nu se corelează deloc cu panta De exemplu, înălțimea ta în centimetri are un coeficient de corelație cu înălțimea ta în metri sau nanometri orice alt atribut numeric Deoarece există în prezent atribute numerice, ai ajunge cu un II = diagramă care nu s-ar încadra pe o pagină tipărită, așa că să ne concentrăm pe doar câteva atribute promițătoare care par a fi cel mai mult asociate cu valoarea medie a locuinței (Figura atribute = [ , , , ] matrice de împrăștiere (locuință) [atribute] , figsize= ) Dacă modulul Pandas a reprezentat grafic fiecare variabilă în raport cu ea însăși, atunci diagonala principală (sus stânga la dreapta jos) ar depăși linii drepte, ceea ce nu este deosebit de util Deci Pandas afișează în schimb o histogramă a fiecărui atribut (sunt disponibile alte opțiuni) iants; consultați documentația Pandas pentru mai multe informații) Capitolul Proiect complet de învățare automată | Cel mai promițător atribut pentru prezicerea valorii medii a locuinței este venitul mediu, așa că haideți să mărim graficul de împrăștiere a corelației (Figura puteți vedea clar tendința ascendentă și punctele nu sunt prea împrăștiate În al doilea rând, limita prețului pe care am observat-o mai devreme este clar vizibilă ca o linie orizontală opusă valorii $ Dar graficul dezvăluie alte linii drepte mai puțin evidente: o linie orizontală lângă $ , alta aproape $ , poate o linie orizontală lângă $ și câteva linii de mai jos Puteți încerca să eliminați districtele corespunzătoare, astfel încât algoritmii dvs să nu învețe să reproducă astfel de caracteristici de date Sperăm că secțiunile anterioare v-au dat o idee despre mai multe moduri în de care puteți explora datele și înțelegeți esența acestora Ați identificat câteva caracteristici ale datelor de care puteți scăpa opțional înainte de a trece datele algoritmului de învățare automată și ați găsit relații interesante între atribute, în special cu atributul țintă Ați observat, de asemenea, că unele atribute au o distribuție cu o coadă care descrește lent, deci aceste atribute poate n trebuie transformat (să zicem, calculând logaritmul lor) Desigur, gradul de progres va varia foarte mult de la proiect la proiect, dar ideile generale sunt similare numărul de camere dintr-un cartier nu este deosebit de util dacă nu Nu știu câte case sunt Ceea ce ai nevoie cu adevărat este numărul de camere pe casă În mod similar, numărul total de dormitoare nu este foarte util în sine: poate ar trebui comparat cu numărul de camere Casa este, de asemenea, un combinație interesantă de atribute de luat în considerare Să creăm noile atribute menționate: [ housing[ hou inc[ housing[ housine [ housing /hou sin: = ]/housing = ] /housin:'\ Capitolul Proiect complet de învățare automată | Acum uitați-vă din nou la matricea de corelație: O [ valoarea mediană a locuinței venitul mediu camere per gospodărie total de camere locuințe vârsta medie a gospodăriilor populație totală de dormitoare pe gospodărie populație longitudine latitudine dormitoare per cameră Nume: valoarea medie a casei, ] - - - - - - dtip: float „Fals) Hei, e bine! Noul atribut (numărul de dormitoare pe număr de camere) este mult mai legat de costul mediu al unei locuințe decât de numărul total de camere sau dormitoare Casele cu un raport dormitor/cameră mai scăzut par să tindă să fie mai scumpe per casă este, de asemenea, mai informativ decât numărul total de camere din cartier – evident, cu cât casele sunt mai mari, cu atât sunt mai scumpe Această rundă de cercetare nu trebuie să fie complet exhaustivă; este o chestiune de a începe lucrurile și de a obține rapid esențialul, ceea ce vă va ajuta să obțineți primul dvs prototip rezonabil de bun Dar este un proces iterativ: odată ce prototipul este gata, puteți analiza rezultatul său pentru a obține o înțelegere și mai bună și mergeți înapoi la pas din nou cercetare Este timpul să pregătiți datele pentru algoritmii dvs de învățare automată În loc să faceți doar pregătirea manual, ar trebui să scrieți funcții pentru aceasta din mai multe motive întemeiate Va fi posibil să reproduceți cu ușurință aceste transformări pe orice set de date ( să spunem, data viitoare când primiți un set de date proaspăt) Partea I Fundamentele învățării automate Veți construi treptat o bibliotecă de funcții de transformare care pot fi reutilizate în proiecte viitoare Funcțiile gata făcute pot fi utilizate într-un sistem live pentru a transforma date noi înainte de a fi alimentate în algoritmi Va fi posibil să încercați diferite transformări pentru a vedea ce combinații de transformări s funcționează cel mai bine Dar, mai întâi, să ne întoarcem la setul de antrenament pur (copierând din nou) și să separăm, de asemenea, predictorii și etichetele, deoarece nu vrem neapărat să aplicăm aceleași transformări la predictori și ținte (rețineți că creează un copie a datelor și nu afectează housing = strat tra in set drop( , is= ) hou g abels = strat tra: n set copy() Să creăm câteva funcții pentru a avea grijă de ele am văzut mai devreme că unui atribut lipsesc un număr de valori, așa că haideți să rezolvăm asta Există trei opțiuni: scăpați de județele relevante; scăpa de întregul atribut; setați valorile lipsă la o anumită valoare (zero, medie, mediană etc ) Toate opțiunile sunt ușor de implementat folosind metodele și obiectele: -o ( := ) # opțiunea hor ( , = ) # opțiunea = " () # opțiunea -o ! ( " , =True) Dacă alegeți opțiunea , trebuie să calculați mediana setului de antrenament și să o aplicați pentru valorile care nu sunt în set de antrenament, dar amintiți-vă și să salvați mediana calculată Veți avea nevoie de aceasta mai târziu pentru a înlocui valorile lipsă în setul de testare atunci când trebuie să evaluați sistemul și, de asemenea, după ce sistemul este pus în producție pentru a înlocui valorile lipsă în date noi Capitolul Proiect complet de învățare automată | Modulul Scikit-Learn oferă o clasă la îndemână care se ocupă de valorile lipsă: Iată cum se utilizează numai pe atributele numerice, trebuie să creăm o copie a datelor fără atributul text : ( , = ) Acum instanța poate fi ajustat la datele de antrenament folosind metoda : Instanța calculează pur și simplu mediana fiecărui atribut și stochează rezultatul în variabila sa de instanță Unele valori lipsesc doar la atribut , dar nu putem fi siguri că acest lucru nu se va întâmpla cu date noi după începerea funcționării sistemului și, prin urmare, este mai fiabil să se aplice tuturor atributelor numerice: aggay ( [ - , , , , , , , ]) [ - , , , , , , , ]) Acum poate folosi această instanță „antrenată” pentru a transforma setul de antrenament prin înlocuirea celor care lipsesc valori după mediane cunoscute: Rezultatul este o matrice NumPy simplă care conține caracteristicile transformate Dacă doriți să o puneți înapoi într-un obiect Pandas, este la fel de simplu ca: = ( , = ) Obiectele de bază ale învățării automate din partea I au o interfață coerentă și simplă o Orice obiect care poate evalua parametrii pe baza unui set de date se numeste estimator (de exemplu, este un estimator) Evaluarea in sine se realizeaza folosind o metoda care ia ca parametru un singur set de date (sau doua pentru invatarea algoritmilor cu profesorul) ; al doilea set de date conține etichete) Orice alt parametru necesar pentru a controla procesul de scorare este considerat un hiperparametru (ca în ) și trebuie specificat ca o variabilă de instanță (de obicei printr-un parametru constructor) o Unii estimatori (cum ar fi ) pot, de asemenea, transforma setul de date; se numesc transformatoare Din nou, API-ul este destul de simplu: transformarea este realizată printr-o metodă care ia ca parametru setul de date pentru a fi transformat Returnează setul de date transformat Transformarea se bazează de obicei pe parametrii învățați, ca în cazul All transformatoarele au, de asemenea, o metodă convenabilă numită care este echivalentul apelării și apoi (dar datorită optimizării, metoda este uneori mult mai rapidă) o În cele din urmă, unii estimatori sunt capabili să facă predicții având în vedere un set de date; se numesc predictori Pentru mai multe informații despre principiile de proiectare, consultați lucrarea „Proiectarea API pentru software-ul de învățare automată: experiențe din proiectul scikit-learn” Capitolul Proiect complet de învățare automată | De exemplu, modelul din capitolul anterior a fost un predictor: a prezis satisfacția vieții pentru un anumit PIB pe cap de locuitor dintr-o țară o metodă care măsoară calitatea prognozelor utilizând setul de test specificat (și etichetele corespunzătoare în cazul algoritmilor de învățare supravegheată) Inspecție Toți hiperparametrii predictorilor sunt accesibili direct prin variabile de instanță (de ex ), iar toți parametrii predictorilor învățați sunt, de asemenea, accesibili prin intermediul publicului variabile de instanță sufixate cu o liniuță de subliniere (de ex , ) Clasele nedistribuitoare Seturile de date sunt reprezentate ca matrice NumPy sau matrici rare SciPy în loc de clase create de sine Hiperparametrii sunt doar șiruri sau numere Python obișnuite Compoziție Blocurile de construcție existente sunt reutilizate cât mai mult posibil De exemplu , după cum va fi arătat mai târziu, este ușor să creați un predictor dintr-o secvență arbitrară de transformatoare, urmat de un predictor final sistem de lucru de bază Am omis anterior atributul categorial deoarece era un atribut text, deci este imposibil să-i calculăm mediana: Unii predictori oferă, de asemenea, metode pentru a măsura cât de sigure sunt predicțiile lor Partea I Fundamentele învățării automate ( : cu elemente stocate în format Compressed Sparse Row> , dar este o matrice unidimensională, deci forma sa trebuie remodelată De asemenea, rezultatul este SciPy, nu o matrice NumPy Acest lucru este foarte util când aveți atribute categorice cu mii de categorii După codificare unitară, obțineți o matrice care conține mii de coloane care este plină de zerouri pentru și prin eliminarea unei singure pe rând Risipirea multor memorie pentru a reprezenta predominant zerouri ar fi o risipă, deci, în schimb, o matrice rară stochează doar pozițiile elementelor diferite de zero Poate fi folosită la fel ca o matrice bidimensională normală, dar dacă chiar doriți să convertiți o matrice rară într-o matrice NumPy (densă), apoi apelați doar metoda: O argau([[ , o ] , [ -, , , , ] , [ , , o , , ] , [ , , , [ -, o , , , ], [ , , , , ] ] ) Puteți aplica ambele transformări (categorii de text la categorii întregi și apoi categorii întregi la vectori în cod unitar) dintr-o singură dată folosind clasa că în momentul citirii cărții, clasa menționată poate fi deja disponibilă Dacă nu este, atunci ia-l din caietul Jupyter pentru acest capitol (codul a fost copiat din Solicitarea Puii # ) Iată cum se aplică clasa: Funcția NumPy permite ca o dimensiune să fie - , ceea ce înseamnă „nedefinit”: valoarea este derivat din lungimea matricei și dimensiunile rămase Partea I Fundamentele învățării automate # sau luate dintr-un caiet = te^p i : cu elemente stocate în format Comprimat Sparse Row> În mod implicit, clasa scoate o matrice rară, dar puteți seta codarea la dacă preferați o matrice densă: carcasă c carcasă c DG IO L aggau ([ [ , , , o , ], [ -, o , o , o , ], [ , o , o , o , ], G [ , , , o , ], [ , o , o , o , ], [ , , o ]]) Folosind o variabilă de instanță, puteți obține o listă de categorii Este o listă care conține o matrice unidimensională de categorii pentru fiecare atribut categoric (în acest caz, o listă, care conține o singură matrice, deoarece există un singur atribut categorial): [argary([' m: - = [:, ] "=False) ) la True (ceea ce este adesea util în partea I de învățare automată pentru furnizarea de valori standard rezonabile) Acest hiperparametru va face mai ușor să ne dăm seama dacă adăugarea acestui atribut ajută sau nu algoritmii de învățare automată Mai general, puteți adăuga un hiperparametru pentru a controla orice pas de pregătire a datelor care nu Încredere Cu cât automatizați mai mult acești pași de pregătire a datelor, cu atât mai multe combinații îl poți încerca automat și cu cât ai mai multe șanse să găsești o combinație grozavă (economisind mult timp) să ai scale foarte diferite În cazul datelor casei, numărul total de camere variază de la până la în timp ce venitul median variază doar de la Rețineți că scalarea țintelor nu este de obicei necesară Există două modalități comune de a asigura aceeași scară pentru atributele tuturor: și Scalare prin minimax (mulți oameni o numesc ) este destul de simplă: valorile sunt deplasate și modificate astfel încât să ajungă în intervalul de la până la Acest lucru se face prin scăderea valorii minime și împărțirea la diferența dintre valorile maxime și minime Pentru a rezolva o astfel de problemă, Scikit-Learn este conceput transformator după nume Are un hiperparametru care vă permite să schimbați intervalul dacă dintr-un motiv oarecare - nu vă convine Standardizarea este complet diferită: mai întâi se scade media (deci valorile standardizate au întotdeauna o medie zero) și apoi se împarte la varianța, astfel încât distribuția rezultată să aibă varianță unitară Spre deosebire de scalarea minimax, standardizarea nu leagă deloc valorile la un anumit interval, ceea ce poate fi o problemă pentru unii algoritmi (să zicem, rețelele neuronale se așteaptă adesea la o valoare de intrare în interval) de la la ) Cu toate acestea, standardizarea este mult mai puțin afectată de valori aberante Completați proiectul de învățare automată De exemplu, să presupunem că un județ are un venit mediu egal cu (din eroare) Scalare Minimax ar stoarce toate celelalte valori din - în interval - , în timp ce standardizarea ar fi mai puțin afectată Pentru standardizare, Scikit-Learn oferă un transformator după nume de date (inclusiv setul de testare) Numai atunci pot fi folosite pentru a transforma setul de antrenament și set de testare (și date noi) Ați văzut că există mulți pași de transformare a datelor care trebuie efectuate în ordinea corectă Din fericire, Scikit-Learn oferă o clasă pentru a ajuta la gestionarea acestor secvențe de transformări Următoarea este o conductă mică pentru atributele numerice : = Constructorul acceptă o listă de perechi nume/evaluator care definesc o secvență de pași Toate, cu excepția ultimului evaluator, trebuie să fie transformatoare (adică trebuie să aibă metoda ) Numele pot fi orice (atâta timp cât nu conțin Două și subliniază ) Apelarea unei metode pipeline face ca metodele tuturor transformatoarelor să fie apelate în secvență, trecând ieșirea fiecărui apel ca parametru la apelul următor, până când se ajunge la ultimul estimator, pentru care metoda este apelată simplu Conducta expune aceleași metode, ca și estimatorul final În exemplul curent, ultimul estimator este , care este un transformator, astfel încât conducta are o metodă Fundamentele învățării automate partea I care aplică toate transformările datelor din secvență (de asemenea are o metodă care ar putea fi folosită în loc să apeleze și apoi ) Acum ar fi bine să poți trece un obiect Pandas direct în conductă în loc să extragi mai întâi manual coloanele numerice într-o matrice NumPy Nu există nimic în Scikit-Learn to gestionați obiecte Pandas, dar putem scrie un transformator personalizat pentru această sarcină: BessEsti nator, Trisf ogtagMixil DataFrameSelector(BaseEzsitaco , Transfe r nerMi in) : (seif, a t r ib i ? i: e i i g ir : seif at ‘te na ne >= attril >v te i ne > fi ( >elf, , =None) : seif transform(seif, [seif : i ui | Clasa noastră i t;- Tj eSei ectoî va transforma datele alegând argumentele dorite, eliminând restul și conversia obiectului „ :a rgd ” rezultat într-o matrice NumPy Cu ea, puteți scrie cu ușurință o conductă care va accepta un obiect Pandas și procesează numai valori numerice: canalul ar putea începe cu un obiect )ataFrai es i r pentru a selecta numai atribute numerice, urmat de restul pașilor de preprocesare discutați mai devreme Ați putea la fel de ușor să scrieți un alt canal pentru atribute categorice, din nou doar selectând atribute categoriale cu aplicarea obiectului Datai j -ci ector și apoi num attribs = list(housing num) cat attribs = ] num pipeline = Pipeline ( [ ( , DataFrameSelector(num attribs)), ( , Imputer(strategy= )), ( , CombinedAttributesi der()), ( , StandardSca ,er () ) , ]) Dar verificați cererea de extragere # , care poate introduce o clasă CoumnTransformer care facilitează atributele specifice De asemenea, puteți rula pip install sk earn-pand s pentru a obține o clasă DataFrameMapper cu un scop similar Capitolul Proiectul complet de învățare automată | Dar cum pot fi combinate aceste două conducte într-o singură conductă? Răspunsul este să folosești o clasă de la Scikit-Learn Îi treci o listă de transformatoare (care pot conține conducte întregi de transformatoare); atunci când metoda sa este apelată, rulează metodele tuturor transformatoarelor în paralel, așteaptă ieșirea lor, apoi concatenează ieșirile și returnează rezultatul (desigur, apelarea metodei sale are ca rezultat apelarea metodei fiecărui transformator) O manipulare completă a conductei atributele numerice și categoriale ar putea arăta astfel: ( ]) Întreaga conductă este pornită simplu: aggay([[- , , , , , ] , [- , , - , , , ], [ ] In cele din urma! Ați completat declarația problemei, ați achiziționat și explorat datele, ați eșantionat seturile de antrenament și de testare și ați scris conductele de transformare pentru a curăța și a pregăti automat datele pentru algoritmii ML Acum sunteți gata să selectați și să antrenați modelul ML Mulțumesc la pașii precedenți, lucrurile ar trebui să fie mult mai ușor decât ați crede Să antrenăm mai întâi modelul cu regresie liniară așa cum am făcut în capitolul anterior: Oh ( > ) Gata! Aveți pregătit un model de regresie liniară Să-l încercăm pe mai multe mostre din setul de antrenament: [: ] Predicții: ( , list( )) Etichete: [ , , , , ] Modelul funcționează, deși predicțiile nu sunt destul de precise (de exemplu, prima predicție diferă cu aproape ) Să măsurăm eroarea RMSE a acestui model de regresie pe întregul set de antrenament folosind funcția din Scikit-Learn: eroare medie' : i/' oc := în gs; predice (housinc p/ ~,:>>c s; ) Lin mse = mean squa >r(housing la L , housing pr; ctions) in rmss = np sqri (li o) Bine, asta e mai bine decât nimic, dar evident nu major succes: majoritatea județelor fluctuează între $ și $ , așa că eroarea tipică de predicție $ nu este deosebit de bună Avem un exemplu de adaptare insuficientă a modelului pe datele de antrenament Când se întâmplă acest lucru, poate că funcțiile nu oferă suficiente informații pentru a face predicții bune, sau modelului lipsește putere După cum sa discutat în capitolul anterior, principalele modalități de eliminare a cauzelor subajustării sunt alegerea unui model mai puternic, alimentarea algoritmului de învățare cu caracteristici mai bune sau reducerea căpcăunului Capitolul The Complete Machine Learning Project | Modelul nu este regularizat, deci ultimul caz este exclus S-ar putea adăuga mai multe caracteristici (să zicem, logaritmul populației), dar mai întâi vom încerca un model mai complex pentru a vedea cum se comportă relații neliniare în date (arborii de decizie sunt discutați în detaliu în capitolul ) Codul ar trebui să pară familiar: = k () După antrenamentul modelului, evaluați-l pe setul de antrenament: = = = Stai ce?! Fără erori deloc? Poate acest model să fie cu adevărat perfect? Bineînțeles, este mult mai probabil ca modelul să fie extrem de supraadaptat cu date De ce această încredere? După cum am menționat mai devreme, nu doriți să atingeți setul de testare până când nu sunteți gata să rulați modelul în care aveți încredere, așa că trebuie să utilizați partea setului de antrenament pentru antrenament și partea pentru validarea modelului O modalitate de a evalua modelele cu arbori de decizie ar putea implica utilizarea unei funcții pentru a împărți setul de antrenament într-un set de antrenament mai mic și un set de testare, apoi antrenați modelele pe setul de antrenament mai mic și evaluați-le pe setul de testare Cantitatea de muncă este decentă, dar nu prea complex și rezultatele sunt destul de bune O alternativă excelentă este utilizarea instrumentului Scikit-Learn Codul de mai jos execută Împarte aleatoriu setul de antrenament în subseturi nepotrivite, numite , apoi le antrenează și evaluează timpii modelului arborelui de decizie , alegând un bloc diferit de evaluat de fiecare dată și desfășurând antrenament pe blocurile rămase Rezultatul va fi Există o matrice care conține sumele scorului: validatorul încrucișat Scikit-Learn se așteaptă la o funcție de utilitate (mai mult este mai bine), nu o funcție de cost (mai puțin este mai bine), astfel încât funcția de numărare este efectiv opusul erorii MSE (de ex , are o valoare negativă), pentru că de ce în codul anterior înainte de a calcula rădăcina pătrată Să ne uităm la rezultate: afișare scorî ( o : ( , scoruri) ( , scoruri mean ()) ( , scors std()) Scor sume: modelul arborelui de decizie nu arată la fel de bine ca înainte De fapt, se pare că are performanțe mai slabe decât modelul de regresie liniară! Rețineți că validarea încrucișată oferă nu numai o estimare a performanței modelului, ci și o măsură a cât de precisă este acea estimare (adică, abaterea standard) Un model de arbore de decizie are o sumă estimativă a aproximativ un set de validare utilizat, dar încrucișarea validarea se realizează cu prețul antrenării modelului de mai multe ori și, prin urmare, nu este întotdeauna posibilă Doar pentru a fi sigur, să calculăm aceleași sume de scor pentru un model de regresie liniară: Capitolul Proiectul complet de învățare automată | Sumele scorurilor: Medie: Abatere standard: În regulă: modelul arborelui de decizie este supraadaptat atât de mult încât are performanțe mai slabe decât modelul de regresie liniară antrenând arbori de decizie multipli pe subseturi arbitrare de caracteristici și calculând o medie a predicțiilor acestora Construirea unui model pe mai multe alte modele se numesc și este adesea o modalitate excelentă de a împinge algoritmii de învățare automată și mai departe Vom sări peste majoritatea codului, deoarece este același ca pentru alte modele: Suma scorurilor: Medie: Abatere standard : Grozav, mult îmbunătățit: pădurile aleatorii arată foarte promițătoare sunt de a simplifica modelul, de a-l constrânge (adică, regularizare) sau de a obține o cantitate mult mai mare de pregătire Partea I Fundamentele învățării automate a datelor sprijină mașini vectoriale cu diferite nuclee, poate o rețea neuronală etc hiperparametri Scopul este de a include doar câteva (două până la cinci) modele promițătoare în lista finală Trebuie să salvați fiecare model cu care experimentați, astfel încât să vă puteți întoarce cu ușurință la orice model dorit mai târziu parametrii învățați, precum și sumele scorurilor de validare încrucișată și, eventual, predicțiile reale Această abordare vă va permite să comparați cu ușurință sumele scorurilor între modele de diferite tipuri și să potriviți tipurile de erori pe care le comit Modelele Scikit-Lear n poate fi stocat folosind un modul Python după nume sau o bibliotecă care este mai eficientă la serializarea matricelor mari NumPy: # și mai târziu = - Să presupunem că aveți deja o listă finală de modele de perspectivă Acum trebuie să reglați fin Haideți să aruncăm o privire la câteva moduri în care puteți proceda Prima modalitate este să vă jucați manual hiperparametrii până când găsiți o combinație excelentă a valorilor acestora Lucrul poate fi extrem de obositor și este posibil să nu aveți timp să explorați mulți combinații În schimb, trebuie să utilizați o clasă de la Scikit-Learn care face (g I searci ) Trebuie doar să-i spuneți cu ce parametri doriți să experimentați și ce valori doriți să utilizați Capitolul Proiectul complet de învățare automată | în loc să o încerce, va evalua toate combinațiile posibile de valori ale hiperparametrului utilizând validarea încrucișată De exemplu, următorul cod găsește cea mai bună combinație de valori ale hiperparametrului pentru { : [False], : , : [ , , ]}, ] h = , = , ) Când nu aveți idee ce valoare ar trebui să aibă un hiperparametru, o abordare simplă este să încercați puteri succesive (sau mai puține dacă sunteți interesat de căutarea cu granulație fină, ca demonstrat în acest exemplu de hiperparametru) Parametrul îi spune lui Scikit-Learn că mai întâi trebuie să evaluați toate x = combinațiile de valori ale hiperparametrului și , specificate în primul dicționar (nu vă faceți griji încă de semnificația acestor hiperparametri; acestea vor fi explicat în capitolul ), apoi încercați x = combinații de valori ale hiperparametrului în al doilea dicționar, dar de data aceasta cu hiperparametrul setat la , mai degrabă decât (valoarea implicită pentru ) În general, căutarea în zăbrele va explora += combinații de valori hiperparametre de cla ss și antrenați fiecare model de cinci ori (pentru că folosim validarea încrucișată cu cinci unități) Cu alte cuvinte, va exista x = cicluri de antrenament în total! Procesul poate dura mult timp, dar odată finalizat, puteți ajunge la cea mai bună combinație de parametri precum aceasta: {'maX—features' : , n estimators': } Partea I Fundamentele învățării automate pe care trebuie să le căutați mai mari valori, deoarece suma scorului poate continua să se îmbunătățească Puteți obține, de asemenea, cel mai bun estimator direct: RandomForestRegressor(bootstrap=True, criterion='mse', max depth=None, max features= , max leaf nodes=Niciunul, min impuritate scade =O , divizarea minimă a impurităților=Niciuna, eșantioane minime frunze= , eșantioane minime împărțite= , fracție de greutate minimă frunză= , n estimatori= , n locuri de muncă=l, scor oob=Fals, stare aleatorie= , pronunțat= , pornire la cald =Fals ) Dacă obiectul este inițializat la c -True (implicit), atunci după ce s-a găsit cel mai bun estimator validat încrucișat, îl va reinstrui pe întregul set de antrenament își va îmbunătăți performanța Desigur, sunt disponibile și sume de estimări: în zip( , {'n estimators': , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {' n estimatori' : , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {'n estimators' : , max features' : } {'n estimators': , bootstrap': False, max features' : } {'n estimators' : , bootstrap': Fals, max features': } {'n estimators': , bootstrap': False, max features': } Capitolul Proiect complet de învățare automată | {'n estimators': , bootstrap': False, max features': } {'n estimators' : , bootstrap': False, max features': } {' n estimators': , bootstrap': False , „funcții maxime”: } În acest exemplu, obținem o soluție mai bună setând hiperparametrul la și hiperparametrul la , ați ajustat cu succes cel mai bun model al dvs ! Rețineți că puteți trata unii dintre pașii de pregătire a datelor ca hiperparametri De exemplu, o căutare în rețea va determina automat dacă să adăugați sau nu o caracteristică de care nu erați sigur (de exemplu, aplicarea unui hiperparametru de transformator) să fie utilizat în mod similar pentru a găsi automat cea mai bună modalitate de a procesa valorile aberante, caracteristicile lipsă, selecția caracteristicilor etc Abordarea căutării în grilă este bună atunci când explorați un număr relativ mic de combinații, ca în exemplul anterior, dar dacă hiperparametrul este mare , este adesea de preferat să folosiți , care este implementat de clasă Această clasă poate fi folosită în mod similar class , dar în loc să încerce toate combinațiile posibile, evaluează un număr dat de combinații aleatoare, alegând o valoare aleatoare pentru fiecare hiperparametru la orice iterație Această abordare are două avantaje principale oh, atunci vor fi explorate valori diferite pentru fiecare hiperparametru (mai degrabă decât doar câteva valori per hiperparametru în abordarea de căutare în grilă) Aveți mai mult control asupra resurselor de calcul pe care doriți să le alocați pentru a găsi valorile hiperparametrului prin pur și simplu setarea numărului de iterații Part I Elementele fundamentale ale învățării automate O altă modalitate de a vă ajusta sistemul este să încercați să combinați modele care au performanțe mai bune Un grup (sau „ansamblu”) va funcționa adesea mai bine decât cele mai bune modele individuale (la fel cum pădurile aleatoare au performanțe mai bune decât copacii individuali) ) deciziile pe care se bazează), mai ales dacă aceste modele individuale permit tipuri foarte diferite de erori Vom trata acest subiect mai detaliat în capitolul realizarea de previziuni precise: aggau([ e-, e-, e-, e- , e-, e-, e-, e-, e-, e-, e-, e-, e-, e-, e - , e- ]) Să afișăm scorurile de importanță lângă numele atributelor respective: ați efectuat o mulțime de reglare a hiperparametrilor (deoarece sistemul dvs este în cele din urmă reglat pentru a funcționa bine cu datele de testare și este puțin probabil să funcționeze la fel de bine cu seturi de date necunoscute) În acest exemplu din partea I Fundamentele învățării automate, acest lucru nu se întâmplă, dar atunci când face, atunci trebuie să rezistați tentației de a modifica hiperparametrii pentru a asigura o performanță bună pe setul de testare; este puțin probabil ca îmbunătățirile să fie generalizate la date noi Acum vine etapa pre-lansare a proiectului: trebuie să vă prezentați soluția (subliniind ceea ce ați învățat, ce a funcționat și ce nu, ce ipoteze au fost făcute și care sunt limitările) al sistemului dvs ), documentați toate aspectele și creați prezentări relevante cu vizualizări clare și limbaj ușor de reținut (să zicem, „venitul mediu este cel mai important indicator al prețului casei”) Grozav, aveți permisiunea de a lansa! Trebuie să vă pregătiți soluția pentru implementarea într-un mediu de producție, în special, să conectați sursele de intrare de producție la sistem și să scrieți teste Trebuie, de asemenea, să scrieți cod de monitorizare pentru a monitoriza performanța reală a sistemului la intervale regulate și pentru a declanșa alarme atunci când acesta se blochează doar neașteptat eșecuri, dar și faptul că performanța se degradează Această abordare este destul de comună, deoarece pe măsură ce datele evoluează în timp, modelele tind să „corupă” dacă nu sunt antrenate metodic pe date noi Evaluarea performanței sistemului dvs va necesita eșantionarea predicțiilor În mod obișnuit, acest lucru va necesita analiști, care pot fi experți de teren sau lucrători participanți (cum ar fi Amazon Mechanical Turk sau CrowdFlower) În orice caz, trebuie să conectați o conductă de evaluare umană la sistem evaluare x date de sistem Uneori, performanța sistemului va fi ușor degradată din cauza calității slabe a semnalului (de exemplu, un senzor defect trimite valori arbitrare sau ieșirea unei alte comenzi devine învechită), dar poate dura ceva timp până când performanța se degradează suficient pentru a declanșa o alarmă Dacă urmăriți intrarea sistemului dvs , o puteți prinde mai repede Monitorizarea intrărilor este importantă în special pentru sistemele de învățare dinamică Capitolul Proiectul complet de învățare automată | În cele din urmă, veți urmări de obicei să vă instruiți modelele în mod regulat folosind date noi Ar trebui să automatizați un astfel de proces cât mai mult posibil În caz contrar, este foarte probabil să vă actualizați modelul doar la fiecare șase luni (în cel mai bun caz), iar performanța sistemului în timp poate fluctua foarte mult Dacă aveți de-a face cu un sistem de învățare dinamic, atunci trebuie să vă asigurați că instantaneele sunt salvate stările sale la intervale regulate, astfel încât să puteți reveni cu ușurință la o stare anterioară sănătoasă Sperăm că acest capitol v-a oferit o idee bună despre cum este un proiect de învățare automată și v-a arătat o serie de instrumente pe care le puteți folosi pentru a vă instrui un sistem mare se arată că cea mai mare parte a muncii este legată de pasul de pregătire, construirea instrumentelor de observare, organizarea conductelor de evaluare umană și automatizarea antrenamentului regulat al modelului Desigur, algoritmii ML sunt de asemenea importanți, dar probabil că este de preferat să stăpânești generalul procesați și cunoașteți bine trei sau patru algoritmi decât să vă petreceți tot timpul cercetării algoritmi avansați și să nu petreceți suficient timp întregului proces Așa că, dacă nu ați făcut-o deja, acum este un moment bun pentru a lua un laptop, selectați un set de date de interes și încercați să parcurgeți întregul proces de la A la Z Un loc bun pentru a începe ar fi site-ul web al competiției cum ar fi: u in veți avea un set de date cu care să lucrați, un obiectiv clar și oameni cu care să împărtășiți experiențe Efectuați următoarele exerciții folosind setul de date Încercați să sprijiniți mașinile vectoriale pentru regresie cu o varietate de hiperparametri, cum ar fi (cu valori diferite pentru hiperparametru) sau ( cu valori diferite pentru hiperparametri și ) Nu vă faceți griji pentru semnificația acestor hiperparametri încă Cât de mult funcționează mai bine predictorul? Partea I Fundamentele învățării automate Încercați să înlocuiți cu o clasă Încercați să adăugați un transformator la conducta de antrenament pentru a selecta numai cele mai importante atribute Încercați să creați o singură conductă care să efectueze pregătirea completă a datelor și să producă o predicție finală Explorați automat unele opțiuni de antrenament folosind soluțiile de exerciții disponibile în caietele Jupyter online la adresa Capitolul Proiect complet de învățare automată | CAPITOLUL Clasificare Capitolul a menționat că cele mai frecvente probleme de învățare supervizată sunt regresia (predicția valorii) și clasificarea (predicția de clasă) pădurile (care vor fi explicate mai detaliat în capitolele următoare) Acum ne vom concentra asupra sistemelor de clasificare În acest capitol, ne vom concentra va folosi setul de date MNIST (Mixed National Institute of Standards and Technology), care conține imagini mici cu numere scrise de mână de către elevii de liceu și angajații Biroului de Recensământ din SUA Fiecare imagine este etichetată cu numărul pe care îl reprezintă Acest set a fost studiat atât de amănunțit încât este adesea denumit primul exemplu („Bună ziua”) de învățare automată: oricare Ori de câte ori oamenii construiesc un nou algoritm de clasificare, sunt curioși să vadă cum va funcționa acesta pe setul de date MNIST La un moment dat în învățarea învățării automate, mai devreme sau mai târziu oricine va întâlni MNIST Biblioteca Scikit-Learn oferă multe funcții de ajutor pentru încărcarea seturi de date populare Acestea includ MNIST Următorul cod preia un set de date MNIST: Implicit, Scikit-Learn memorează în cache seturile de date descărcate într-un director numit { COL NAMES': ['labei', data'], DESCR': mldata org dataset: mnist -original' , date': matrice([[O, O, O, O, O, ], [ , , , , , o, ] , [ , , , o, o, ] , [ , , , , o , o, ], [ , , , , , o, ], [ , , , , o, , ]], dtype=uint ), target': ([ o , o , , , , , ])} Seturi de date Scikit-Learn încărcat, au de obicei structuri de dicționar similare, care includ: o cheie care descrie un set de date; cheie care conține o matrice cu un rând per eșantion și o coloană per caracteristică; cheie care conține un tablou cu etichete Să vedem care sunt aceste tablouri: I , y = V I ,| ] , i ,L ( ,) Există imagini și fiecare imagine are o caracteristică asociată cu ea Faptul este că fiecare imagine are o dimensiune de x pixeli și fiecare caracteristică reprezintă pur și simplu intensitatea unui pixel, de la (alb) la (negru) Să aruncăm o privire rapidă la un număr din setul de date Tot ce trebuie să facem este să extragem vectorul caracteristic al eșantionului, să-l modelăm într-o matrice x și să-i arătăm conținutul folosind o funcție din Matplotlib bibliotecă: : Figura arată puțin mai multe imagini din setul de date MNIST pentru a vă oferi o idee despre complexitatea problemei de clasificare Dar așteptați! Ar trebui să creați întotdeauna un set de testare și să îl lăsați deoparte înainte de a examina cu atenție datele De fapt, setul de date MNIST este deja împărțit într-un set de antrenament (primele imagini) și un set de testare (ultimele imagini): Capitolul Clasificare | Să amestecăm și setul de antrenament; aceasta asigură că toate blocurile de validare încrucișată sunt similare (nu doriți să lipsească nicio cifră în același bloc) mostre pe un rând Amestecarea setului de date asigură că acest lucru nu se întâmplă: să simplificăm sarcina pentru un timp și să încercăm să recunoaștem o singură cifră - să spunem, un astfel de „detector de cinci” ar fi un exemplu capabil să facă distincția între doar două clase, „cinci” și „nu cinci” Să creăm vectorii țintă pentru această problemă de clasificare: = ( == ) # Thye pentru toate cvintuplurile, False pentru toate celelalte cifre = ( == ) Acum să luăm un clasificator și să-l antrenăm , care folosește o clasă de la Scikit-Learn Avantajul unui astfel de clasificator este că poate gestiona eficient seturi de date foarte mari Acest lucru se datorează parțial faptului că Rețineți că SGD utilizează eșantioane de antrenament în mod independent unul câte unul (o circumstanță care face ca SGD să fie potrivit și pentru ), așa cum vom vedea mai târziu atunci când lucrați cu date de serie cronologică (cum ar fi prețurile acțiunilor sau rapoartele meteo) Vom explora acest lucru în capitolele următoare Partea I Noțiuni de bază ale învățării automate Clasa i se bazează pe tulburări în timpul antrenamentului (de unde și numele „stochastic”) Dacă sunteți interesat de rezultate reproductibile, atunci trebuie să setați parametrul Acum poate fi folosit pentru a detecta imaginile unei cifre : i predi ( [ [ o«iS digit ] ) ([ True], dtype=bool) Clasificatorul crede că această imagine reprezintă un cinci Se pare că în acest caz a ghicit-o! Să evaluăm performanța modelului Estimarea unui clasificator este adesea mult mai complexă decât estimarea unui regresor, așa că vom dedica cea mai mare parte a capitolului acestui subiect Sunt disponibile multe valori de performanță, așa că aprovizionați din nou cu cafea și pregătiți-vă să fiți prezentat multe concepte și acronime noi! / , l /r to i«i " ' l jii: ) ([ True], dtype=bool) Clasa i aplică un prag egal cu , astfel încât codul anterior returnează același rezultat ca și metoda (t e ) Să ridicăm pragul: = ( > ) arr([False], dtype=bool) Rezultatul confirmă că ridicarea pragului reduce plenitudinea Deci, cum decideți ce prag să utilizați? În primul rând, trebuie să obțineți sumele scorurilor tuturor eșantioanelor din setul de antrenament, aplicând din nou funcția , dar de data aceasta specificând că, în loc de predicții, ar trebui să returneze sumele scorurilor care conduc decizia: ( , , , = , ) Acum, folosind sumele dintre scoruri, puteți calcula precizia și reamintirea pentru toate pragurile posibile folosind funcția: Partea I Fundamentele învățării automate În cele din urmă, folosind Matplotlib, puteți reprezentați precizia și retragerea în funcție de valoarea pragului (Fig retragerea preciziei în raport cu pragul ) Partea I Fundamentele învățării automate Să verificăm acuratețea și reamintirea acestor predicții: train pred ) Grozav, aveți un clasificator cu o precizie de (sau destul de aproape)! După cum puteți vedea, este destul de ușor să creați un clasificator cu aproape orice precizie dorită: trebuie doar să setați un prag suficient de mare și gata Dar fă-ți timp Un clasificator de înaltă precizie nu este deosebit de util dacă reamintirea lui este prea mare scăzut! Dacă cineva spune: „să ajungem la exactitatea ”, atunci ești obligat să întrebi: „la ce reamintire?” Curve OS Curve (Receiver Operating Characteris ic - ) este un alt instrument comun folosit cu clasificatorii binari Este foarte asemănător cu trai') > clf predici ([some d g t]) ( ) Ier(ovo clf e timators ) Training este, de asemenea, ușor: forest clf fii ( trair, y train) forest elf predici ([some digit]) ( ) De data aceasta biblioteca Scikit-Learn nu este necesară pentru a rula OVA sau OVO, deoarece clasificatorii de pădure aleatorii pot face direct grupați mostrele în mai multe clase Puteți apela metoda pentru a obține o listă a probabilităților cu care clasificatorul va atribui fiecare eșantion fiecărei clase: ([ [ , , , , , , , , , ]]) După cum puteți vedea , clasificatorul este destul de încrezător în predicția sa: la al-lea element al matricei înseamnă că modelul evaluează imaginea ca reprezentând un cinci cu o probabilitate nu, altfel imaginea ar putea reprezenta zero sau trei (cu probabilitate) Desigur, acum doriți să evaluați clasificatorii generați ca de obicei, folosind validarea încrucișată Să evaluăm corectitudinea clasificatorului folosind funcția: ( , = ) arr( [ , , ]) Oferă o corectitudine peste pe toate blocurile de testare În cazul utilizării unui clasificator aleatoriu, veți obține o corectitudine de , deci aceasta nu este o cifră proastă, dar sunt încă posibile îmbunătățiri De exemplu, scalarea simplă a datelor de intrare (după cum s-a discutat în capitol) crește corectitudinea la mai mult : ( )) ) ]) O v ( , arr([ , , Desigur, într-un proiect real, ați urma pașii în lista de verificare a proiectului ML (vezi anexa B): explorați opțiunile de pregătire a datelor, încercați mai multe modele, includeți într-o listă finală cu cele mai bune modele și ajustați-le hiperparametrii folosind , și automatizați cât mai mult posibil, așa cum sa făcut în precedentul capitol Aici noi Să presupunem că ați găsit un model promițător și doriți să găsiți modalități de a-l îmbunătăți Un astfel de mod este să analizați tipurile de erori făcute de model Primul lucru pe care îl puteți face este să vă uitați la matricea de confuzie Trebuie să faceți predicții folosind funcția și apoi apelați funcția așa cum ați făcut înainte: Partea I Fundamentele învățării automate $ Clasificarea capitolului | Cele două casete x din stânga arată imagini clasificate ca , iar cele două casete x din dreapta arată imagini clasificate ca Câteva numere pe care clasificatorul le-a înțeles greșit (adică casetele din stânga jos și din dreapta sus) sunt scrise atât de rău încât chiar și un om ar avea probleme cu clasificarea lor (de exemplu, un pe rând și o coloană arată într-adevăr ca un ) Cu toate acestea, majoritatea imaginilor clasificate greșit par erori evidente pentru noi și nu este ușor de înțeles de ce clasificatorul a făcut greșeli Motivul este că folosim o clasă simplă , care este un model liniar Acesta atribuie doar o pondere de clasă fiecărui punct și când întâlnește un nou